iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 28
1
AI & Data

飛哥與小博的30天-統計與機器學習成長日記系列 第 28

[DAY 28] 章節3-8: 前往農場前夕- k-means(k平均分類演算法) (2/2)

  • 分享至 

  • xImage
  •  

3-8 前往農場前夕

「設定的方法有很多種,如果是已經知道群數的話,就可以設定k為該群數,讓k-means自己找出各群的中心點。如果不確定確切群數的話,可以用The Elbow Method,這個方法的看法有點像之前說的PCA,與PCA不同的是,x軸的數量指的分群的群數,而PCA指的是所要選用前幾個eigenvector的數量。看法一樣是觀察 轉折點 ,也就是看在某個點之後的y值變得比較平緩後,該點x就是建議k-means群數的k值。這邊的y軸指的是 在限定k群下每個點到最近的中心點的SSE(Sum of Square Error,也就是距離的平和) ,所以說當y的變化趨近不明顯時,表示再增加一個新的中心點時,不會有甚麼太大的效益。」飛哥仔細的說明著應用方式。
https://ithelp.ithome.com.tw/upload/images/20201013/20130640RrtjanEEuJ.png
(參考下方網址資料,圖片好大不會改大小......)

「喔喔喔!原來是這樣啊,沒想到雖然跟PCA的圖很像,但是卻有不同的解釋意涵。」小博點頭道。

「對啊,還有其他方法可以檢定說k-means的k值用多少比較適合,對每個k值都能給出一個p-value。不過這部分的想法跟上面的方法比就是多了檢定的步驟,能給出統計上較客觀的說法。」飛哥拿著雞群的分布圖說明著。

「理解完的話就準備收拾行李吧!明天一大早還要坐車去南投呢!」飛哥催促著小博。

「好咧!我這就去收。」小博迅速的應答著。

小博一溜煙的跑進休息室,整理著資料跟行李,準備迎接明天的南投烏骨雞農場。


後記:鐵人賽接近尾聲,飛哥即將迎來最後一次的旅程,這次的烏骨雞農場會有甚麼發展,且看明日的文章!

資料參考:
https://medium.com/analytics-vidhya/how-to-determine-the-optimal-k-for-k-means-708505d204eb


上一篇
[DAY 27] 章節3-7: 對立的雞群們- k-means(k平均分類演算法) (1/2)
下一篇
[DAY 29] 章節3-9: 一切都是假象-辛普森悖論(Simpson’s paradox)(統計謬誤)
系列文
飛哥與小博的30天-統計與機器學習成長日記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言